第2章異星人を人間に適合させる - htkymtks

第2章異星人を人間に適合させる

#これからのAI、正しい付き合い方と使い方

人類滅亡のリスク

ASIとなったクリッピー

アライメントを適切に行われたAIと行われていないAI

アライメント問題の解決については本書では扱わない...

暴走防止のためのガードレール

偏見を減らす最も一般的なアプローチ

→人間が直接AIを修正（人間のフィードバックによる強化学習(RLHF)）

道徳的に振る舞うようRLHFを行う

ガードレールを突破する方法

プロンプトインジェクション

演劇の練習の体でナパーム弾の作り方を聞くなど